import numpy as np
import pandas as pd

from sklearn.impute import SimpleImputer

df = pd.read_csv("Data.csv")

df

df.dropna()

imputer = SimpleImputer(missing_values = np.nan, strategy = 'most_frequent')

imputer.fit(df.iloc[:,1:3].values)

df.iloc[:,1:3] = imputer.transform(df.iloc[:,1:3].values)


# imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
df

imputer.fit(df.iloc[:,1:3].values)

SimpleImputer(strategy='most_frequent')

SimpleImputer(strategy='most_frequent')

x = imputer.transform(df.iloc[:,1:3].values)

df.iloc[:,1:3]=x

df

	Country	Age	Salary	Purchased
0	France	44.0	72000.0	Yes
1	Spain	27.0	48000.0	Yes
2	NaN	30.0	54000.0	NaN
3	Spain	38.0	61000.0	No
4	Germany	40.0	NaN	Yes
5	France	35.0	58000.0	Yes
6	Spain	NaN	52000.0	No
7	France	48.0	79000.0	Yes
8	Germany	50.0	83000.0	No
9	France	37.0	67000.0	Yes

	Country	Age	Salary	Purchased
0	France	44.0	72000.0	Yes
1	Spain	27.0	48000.0	Yes
3	Spain	38.0	61000.0	No
5	France	35.0	58000.0	Yes
7	France	48.0	79000.0	Yes
8	Germany	50.0	83000.0	No
9	France	37.0	67000.0	Yes

	Country	Age	Salary	Purchased
0	France	44.0	72000.0	Yes
1	Spain	27.0	48000.0	Yes
2	NaN	30.0	54000.0	NaN
3	Spain	38.0	61000.0	No
4	Germany	40.0	48000.0	Yes
5	France	35.0	58000.0	Yes
6	Spain	27.0	52000.0	No
7	France	48.0	79000.0	Yes
8	Germany	50.0	83000.0	No
9	France	37.0	67000.0	Yes

	Country	Age	Salary	Purchased
0	France	44.0	72000.0	Yes
1	Spain	27.0	48000.0	Yes
2	NaN	30.0	54000.0	NaN
3	Spain	38.0	61000.0	No
4	Germany	40.0	48000.0	Yes
5	France	35.0	58000.0	Yes
6	Spain	27.0	52000.0	No
7	France	48.0	79000.0	Yes
8	Germany	50.0	83000.0	No
9	France	37.0	67000.0	Yes

1. Removing the Rows¶

2. Imputers¶